蓖麻是一种高含油量的草本植物,世界各地均有栽培。这种热带多年生灌木,原产于非洲,属于大戟科。它的种子含有近46-55%的油脂(按重量计)。蓖麻油被广泛用作许多工业应用的基础材料或辅助材料,如润滑油、化妆品、油漆、涂料、医药、墨水和许多其它产品。具体地说,蓖麻油的主要成分蓖麻油酸具有特殊的物理和化学性质,在不久的将来对生产生物柴油是非常有价值的。蓖麻的野生亲缘分布在非洲,在热带和亚热带国家,特别是印度、巴西和中国,已经种植了数千年。在中国,根据中国古代文献(唐本草)记载,种植蓖麻的历史可以追溯到大约1400年前。我国自南向北种植了1000多个天然蓖麻品种,为蓖麻育种提供了丰富的遗传资源。然而,对蓖麻的驯化和种群结构仍知之甚少。此外,蓖麻的基因组关联研究尚未开展。利用蓖麻基因组序列,研究者对来自非洲的野生品种以及中国24个蓖麻种植省份的地域性品种和育种系的405个不同的蓖麻材料进行了测序。利用识别到的遗传变异进行全基因组关联分析。结果揭示了一些与农艺性状相关的候选基因和一些在蓖麻驯化和地理分化过程中被选择的候选位点。发表期刊:Nature Communications影响因子:11.878发表时间:2019研究者收集了26个非洲野生蓖麻品种以及来自中国24个蓖麻种植省份的180个地方品种,199个育种系,最终获得405个蓖麻样品。调查了9个与产量相关性状,蒴果裂开(CD),内果皮厚度(ET),百粒重(HGW),穗高(PAH)、穗长(PAL)、株高(PH)。雄花与雌花的比例(RMFF)种子长度(SL)和种子量(SV)。利用Illumina HiSeq X-Ten 测序仪对这405个蓖麻样品进行全基因组重测序,获得2.02T原始数据,过滤adapter及低质量序列后覆盖基因组92.9%,平均覆盖深度18.8x。利用这些基因型和表型数据后续进行了系统进化树、PCA、群体结构、选择清除等一系列进化分析及GWAS全基因组关联分析。识别到一些与表型性状相关基因。选取蓖麻基因组(R. communis v0.1)作为参考基因组,进行变异识别检测,得到4,057,720个SNP(SNPs, 11.6 SNPs/kb),876,681个indel(InDels, 2.5 kb)。每个样本SNP位点的平均测序深度为9.5x(5.3-21.0)。其中136,916(3.4%)个SNP位于编码区域,包含79,523个非同义SNP、57,393个同义SNP。并用一代测序验证了98个SNP,准确率99.61%,结果表明SNP位点识别具有的高度可靠性。系统进化树(LD r2 < 0.05),将所有蓖麻样本分为四类,而且组间显示出明显不同的地理分布,组1在根位置含有26个非洲蓖麻的野生组,组2(71),组3(160)组4(148)是被划分为南部(SC,从海岸线华南至长江下游盆地),中部(MC,内陆至东南海岸线)和东北部(NC,集中在中国东北)的驯化组。研究者基于SNP位点(LD r2<0.05)进行蓖麻品种群体结构分析,当K=4时,变异系数CV最小,所有蓖麻样品被分成与地理分布和系统发育相关的四个亚群。MC组的大多数个体呈现混合聚类,表明该亚群之间的强烈杂交。主成分分析(PCA)结果也与系统发育和群体结构的结果一致。研究者通过计算遗传距离(Fst值)来分析亚群间的遗传差异,结果发现NC组中的Fst值(Fst = 0.33)明显大于SC组(Fst = 0.19)和MC组(Fst = 0.26),其中SC组中的值最小。这一结果说明NC组和野生群体遗传距离最远,SC组和野生群体遗传距离最近。这个结果与系统发育分析结果一致。研究者还计算了每个省份的野生和栽培种间的Fst,结果表明Fst还与地理区域有一定相关性。被驯化的群体有相对较少的遗传多样性,如SC(π= 1.25×10-3),MC(π= 1.23×10−3)和NC组(π= 7.59×10−4)。这个结果与普遍预期一致,野生群体相比于驯化群体有更高的遗传多样性。有趣的是,MC和NC之间(2倍)遗传多样性与SC组和MC组之间(1.5倍)相比要高。之前在大豆和棉花研究中也曾发现这种现象。该结果表明驯化选择过程或地域差异的情况下受选择的强度有所不同。LD衰减程度通常与遗传多样性和驯化程度相关。研究者将LD系数降低到最大值的一半所对应的物理距离作为衰减距离,分析结果得到驯化群体的衰减距离是1.5kp(r2=0.36),而野生群体的衰减距离是405bp(r2=0.28)。显然,驯化蓖麻种群与野生种群相比下降率相对较低。研究者还将蓖麻的衰减距离分别和水稻、大豆、玉米这些物种进行了比较。另外,在驯化种群内也进行了比较,发现NC亚群(~761.4kb,r2=0.25)与SC亚群(47.4kb,r2=0.25)相比,LD的衰减速度较慢,说明LD 的衰减还与地理分布有关。研究者们发现蒴果开裂,内果皮厚度,百粒重,和穗高4种农艺性状在三个地理亚群间存在明显的差异。在NC和SC组间圆锥花序长度、株高和种长表现出差异。取两组间遗传多样性(π)比值的top5%作为阈值,研究者识别到2905个与地理亚群相关候选区域。利用379个地方品种样品中收集的9个性状表型进行GWAS分析,研究者识别到1487个SNP与这些性状显著相关。蒴果裂开性状关联到2个区域(20,001–50,000 bp:scaffold 28,543; 1,390,001–1,670,000 bp: scaffold 29,912)其中包含101个SNP,内果皮厚度性状关联到一个区域(20,001–30,000 bp: scaffold 28,543)其中包含25个SNP,圆锥花序高性状关联到4个区域(50,001–60,000 bp: scaffold 29,906;620,001–1,610,000 bp: scaffold 29,912; 610,001–620,000 bp: scaffold 30,099; 510,001–930,000 bp: scaffold 30,192)其中包含133个SNP,雌雄花比例性状关联到11个区域(scaffolds 27,699; 28,192; 28,609; 29,005;29,579; 29,621; 29,670; 29,847; 29,915; 30,170; and 30,174)其中包含36个SNP,种子体积性状关联到2个区域(20,001–50,000bp: scaffold 28,543;90,001–100,000 bp: scaffold 29,876)其中包含32个SNP,种长性状关联到1个SNP(92,521 bp: scaffold 29,876)。蒴果开裂是强人工栽培条件下的关键农艺性状,可能是由于适应了中国北方干旱的气候或者大规模种植期间经过选择,蒴果开裂性状及其相关基因很明显在NC组被选择。另外,GO分析找到与地理分化相关的1909个基因,他们富集到一些生物过程,例如开花,细胞壁生物起源;脂质、果胶和黄嘌呤分解代谢过程;以及对荷尔蒙的反应。
研究者在野生品种进一步识别与驯化相关的信号,用Fst前10%、野生群体π /地方种群π的前10%作为筛选阈值,识别到1258个选择信号,与GWAS信号联合分析,在驯化选择下或本地育种过程中研究者找到6个与穗高和种子体积相关的区域。这些结果表明一些关键性状及相关基因在驯化过程中经过选择。将驯化相关的747个基因进行GO分析,它们都显著富集在蛋白质磷酸化,对脱落酸的反应,细胞死亡过程,分生组织维护等生物学过程。CD是一个重要的产量性状,会造成收获困难,产量损失。研究者发现开裂程度显著与果皮厚度相关(P <0.01,皮尔逊相关性),与内果皮越厚越容易开裂(P = 4.9e-6,Kruskal–Wallis检验)。这个结果暗示内果皮厚度可能是开裂的决定因素。经过GWAS分析研究者发现171个SNP与CD性状显著相关,48个SNP与果皮厚度显著相关(-log10P > 6),通过比较,其中在scaffolds of Rc28543 和 Rc299275 上的5个SNPs和开裂百分比|、内果皮厚度都相关。此外,我们发现这些SNP位于具有选择信号的基因组区域,表明这些SNP可以经过正选择避免蓖麻裂开。另外,scaffold Rc28543找到3个gene存在关联信号,其中有两个包含3个非同义SNP是与囊裂开和内果皮厚相关(-log10P>6),这两个基因分别是LOC82722707主要编码糖基转移酶涉及β-1,3-木糖基转移酶通路,LOC8272215在拟南芥中编码TRAF样家族蛋白的同源物。研究者采用qRT-PCR发现本地品种S1015(较厚的内果皮和更容易裂开)相较于S1396(内果皮稀薄,裂开困难)本地品种,在不同发育期果皮的中编码糖基转移酶基因的表达水平显著高。由于糖基转移酶在多糖,次生葡糖醛酸木聚糖,纤维素和木质素的合成与代谢过程起着至关重要的作用。因此,研究者接下来测量了S1015和S1396样品果皮中纤维素和木质素的含量。发现在S1015和S1396样品中纤维素和木质素含量存在很大差异,在地方品种S1015的较厚内果皮比来自S1396的更薄内果皮具有更多的纤维素和木质素。这些数据表明基因LOC8272207可能与纤维素和果皮中的木质素的累积和内果皮的厚度有关。大豆先前的研究表明,纤维素的积累是导致豆荚裂开的主要原因。结合先前的结果,蓖麻荚膜裂开是由于稠密的纤维素和木质素形成导致干果皮扭力的层增加引起的。另一个基LOC8272215编码TRAF家族蛋同系物,已被证明在细胞增殖中的具有调控作用。qRT-PCR结果表明在不同发育期S1015果皮中LOC8272215表达水平显著高于S1396。目前没有更多实验数据可用来建立该基因的功能与果皮裂开之间的联系,调节裂开的潜在机制还尚不清楚。研究者发现发现基因LOC8272207有两个非同义SNP的主要单倍型与开裂百分比和果皮厚度显着相关,在scaffoldRc28543位于26560bp位置SNP1(A/G)位点导致氨基酸改变从赖氨酸到精氨酸,在scaffoldRc28543位于27290bp位置SNP2(C/A)位点导致氨基酸改变从天冬酰胺到赖氨酸,我们发现这两个SNP单倍型中存在相同的328种,其中281种携带单倍型AC,与开裂百分比较高,内果皮较厚,其中47个带有单倍型GA,与较低的开裂百分比和较薄的果皮。LOC8272215包含两个非同义SNP,分别是位于Rc28543上61,404bpSNP(T/G) 从谷氨酸到丙氨酸的氨基酸变化和位于Rc28543上69981bpSNP(C/A),从甘氨酸转为缬氨酸。同源GA显著提高了开裂比例。研究者识别到分布在scaffold Rc29439,Rc29927,Rc29820的三个LD blocks,找到5个与百粒重相关基因(52个SNP).其中只有一个基因LOC8275756,含一个非同义SNP位于Rc29439上98426bp,导致氨基酸从丝氨酸变为甘氨酸。另外,在scaffold29927找到一个lncRNA LOC108261897与百粒重显著相关。研究者找到3个与穗高相关基因组区域scaffolds Rc29813, Rc29912, Rc27524,在这些区域识别到11个基因上存在非同义SNP与穗高显著相关。主要集中分析了LOC8281822、LOC8281866 和 LOC8265107。另外,研究者还对其他5个性状进行了GWAS分析,识别到777个与这5个性状显著相关,其中26个SNP位于外显子区域,40个SNP位于内含子区域和711个SNP位于基因间区。研究者进行群体进化分析结果表明,中国蓖麻已形成一种地理模式,分为南方,中部和北方。并且发现了许多在地理分化和驯化过程中与选择信号相关的候选基因组位点。通过全基因组关联分析,确定了与9个重要农艺性状相关的候选基因。编码与纤维素和木质素生物合成相关的糖基转移酶的候选基因与蒴果开裂和内果皮厚度有关。研究者推测,内果皮中纤维素或木质素的含量是影响蒴果开裂的重要因素。研究结果为蓖麻育种和遗传研究奠定了基础。靠谱er点评:对于自然群体的研究来说,选择清除分析、GWAS和生物地理都是常规的分析思路,但是将这三种思路如何有机结合起来,则是文章出现亮点的关键。在本研究中,作者从生物地理出发,但是又不局限于生物地理,从品种的地理分化拓展开,结合选择清除和GWAS分析对重要的农艺性状进行研究。并且从样本选择和实验设计上,研究者明显是考虑到了蓖麻这一重要经济作物从驯化到改良的完整遗传过程,让文章探讨的内容更加丰满。参考文献:Fan W, Lu J, Pan C, et al. Sequencing of Chinese castor lines reveals genetic signatures of selection and yield-associated loci[J]. Nature communications, 2019, 10(1): 1-11.
如何高效利用经费进行育种研究?PBJ文章告诉你答案 | 群体遗传
Current Opinion in Plant Biology|树木茎型遗传调控综述和基因克隆方法启示录 | 群体遗传
F2:3家系那些事儿 | 群体遗传
MBE:你爱吃的核桃是怎么来的?重测序告诉你进化起源 | 群体遗传
群体知识干货大放送 | 学习专栏
Nat Eco&Evo:稗草重测序揭秘稻田里的“伪装者” | 群体遗传
Genome Biology:大规模桃树重测序带你回溯五千年桃驯化史 | 群体遗传
葡萄美酒夜光杯:GBS-GWAS定位葡萄风味基因 | 群体遗传
吃瓜的正确姿势 : GBS高密度遗传图谱助力甜瓜“好吃”性状QTL定位 | 群体遗传